零．一版分詞器（一）定義

2024 iThome 鐵人賽

DAY 9

Software Development

16th鐵人賽

565 瀏覽

是什麼構成一篇漢語文章的呢？從小到大列舉，最小單位是「字」（通常狀況不會再去拆部首），「字」組成「詞」，「詞」再組成「句」，「句」組成「段落」，「段落」組成「文章」。

計算機要處理漢語時，第一步通常就是「分詞」，例如說 嫉妒使我面目全非 ，可以拆解成「嫉妒」、「使」、「我」、「面目」、「全」、「非」。也許有人會把「面目全非」直接分一個詞，也不能說錯，自然語言本就沒必要只能唯一拆解。

法咒（程式語言）跟自然語言仍是有些共通之處，同樣能拆解成不同層級。

想像編譯器讀取音界咒文件時，它看見的是一個又一個的字元，而分詞器做的事情就很接近上述的漢語分詞器。但法咒（程式語言）不能有岐義，因此需要藉助特殊符號，如空白鍵或音界號來確定詞與詞之間的邊界。

來看個範例：

元．人數＝（１１＋３）＊４
人數＋１

第一行 元．人數＝（１＋３）＊４ 依序是分解為

而第二行 人數＋１ 依序是

定義

下表羅列了零・一版音界咒的所有詞：

前幾項全是單字詞，要分出它們是再簡單不過，但最後兩種詞「數字」、「變數」就可能是多個字組成的了。

[０-９]+ 是正規表達式，其意思是，字串由一到多個０１２３４５６７８９組成。

而除了特殊詞之外的所有字串都能當作變數，這個定義是否會太過寬鬆？或是造成歧義？這些問題留待下一章實作時，再來討論。

系列文

離塵指引．卷之一．試結丹：程式語言自舉共 36 篇

4 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙